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Questions redactionnelles et QCM 


V oila pres de 75 ans, un psychometricien ame- 
ricain, A. C. Eurich 1 proposait de remplacer dans 
certains cas la question redactionnelle - arche- 
type des examens ecrits traditionnels - par d'autres 
modalites d'examen, dont la correction etait a la fois plus 
aisee et davantage fiable. 

C'est a cette epoque qu'il est habituel de situer la naissance 
des QCM. Ms constituent le modele de base des questions a 
reponse fermee (ou I'etudiant ne fait que choisir entre diffe- 
rentes possibilites offertes) que Ton oppose generalement 
aux questions a reponse ouverte (ou I'etudiant elabore et for- 
mule lui-meme ce qu'il lui paraTt devoir correspondre a la 
question posee). 

Depuis lors, et dans tous les pays du monde, les partisans 
respectifs des questions a reponses ouverte ou fermee n'ont 
cesse de debattre, en soulignant les avantages des unes et les 
inconvenients des autres. 

Les questions a reponse fermee ont a I'evidence une bonne 
objectivite/reproductibilite ; en revanche, leur validite (c'est- 
a-dire la capacite du mode de questionnement a effective- 
ment mesurer ce que I'on souhaite evaluer chez I'etudiant) 
est mediocre et, surtout, les QCM conduisent trap souvent les 
etudiants a privilegier d'interminables bachotages qui n'ont 
que peu de rapports avec une veritable formation. 

De leur cote, les questions redactionnelles n'ont pas ce reten- 
tissement facheux sur le travail de preparation des etudiants, 
mais elles restent plus difficiles a preparer qu'il n’y paraTt et 
surtout delicates a corriger. 

Ces reserves sur les questions redactionnelles sont ancien- 
nes. En temoigne le document qui suit, reproduisant un arti- 
cle 2 publie en octobre 1966. 

Le signataire (autorise) etait un des hauts responsables au 
ministere de I'Education nationale d'alors. 


Jean-Michel CHABOT 

Faculte de medecine - Marseille 


L'etude rapportee dans I'article repondait a une demande 
officielle (!) de la presidence de la Republique. Elle avait 
consiste a faire corriger par 5 correcteurs qualifies differents 
la meme copie (dactylographiee) d'une epreuve de semiolo- 
gie medicale, chaque correcteur completant eventuellement 
son travail par une explication de note. 

Bien entendu, I'analyse des corrections avait montre de nom- 
breuses divergences entre les notes portees par les differents 
correcteurs, I'ecart maximal entre deux correcteurs etant de 
12 points pour une notation sur 20 et I'ecart absolu moyen 
etant de 4,79 points sur 20. 

Dans la partie « Discussion » de I'article, I'auteur declarait : 

« Comme il a ete amplement demontre il y a trente ans dans 
"I'Enquete Carnegie", la divergence des notes de deux cor- 
recteurs pour une meme copie peut etre la consequence de 
trois ordres de faits : 

1. Divergence de points de vue entre les correcteurs sur les 
gualites de fond et de forme a rechercher dans les copies et 
sur I' importance relative a attribuer a ces qualites. 

2. Differences possibles dans les echelles effectivement 
employees, car le meme degre d'excellence apprecie comme 
tel par deux correcteurs peut cependant etre exprime par 
des notes quelque peu differentes. 

3. Fluctuations fortuites, dues a des facteurs multiples parmi 
lesquels notamment la variabilite propre d'un correcteur 
(disposition journaliere, fatigue, etc.). 

Ence qui concerne les deux premiers faits, il sembleque des pre- 
cautions puissent etre prises, et elles le sont, car "chaque copie 
est corrigee par deux juges qui s'entendent prealablement sur 
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la fagon de corriger, etablissant ensemble une grille de cor- 
rection apres avoir lu quelques dizaines de copies pour se 
rendre compte du niveau des epreuves". [...] 

Mais, est-il serieux d'esperer qu'un correcteur puisse evader 
une copie avec un minimum d'objedivite, se ferait-il aider 
d'un collegue ? Peut-on croire, comme il nous a ete ecrit, que 
"la note est finalement attribute avec une certaine relativite 
par les deux juges en fondion de tous ces elements qui per- 
mettent d'obtenir une grande homogeneity dans la notation, 
homogeneity contrdlee, s'il en est besoin, par le President du 
Jury" ? Ne s'agirait-il pas plutot d'une relativite certaine ? II 
s'agit la d'une tache impossible et cela meme avec I'aide de 
toute la conscience professionnelle des correcteurs, dont il 
ne vous viendrait pas a Lidee de douter et qui n'entre pas 
dans le cadre de cette etude. 

Le troisieme fait, la variability propre du correcteur, prend 
dans la valeur de la note "une part superieure a celle de la 
performance examinee [...] un couple d’examinateurs peut 
quelquefois arriver a un certain accord, ou peut au contraire 
se comporter comme si chacun fixait sa note a peu pres au 
hasard [...] le hasard intervient avec la constitution des cou- 
ples de correcteurs dont les caracteristiques typologiques 
peuvent compenser ou accentuer les deviations". 

On sait que les fluctuations fortuites correspondent chez les 
examinateurs aux variations journalieres, a la fatigue, aux 
problemes personnels influengant la vie affective, etc., et Lon 
sait alors que telle copie lue a un moment donne apparaitra 
plus tard sous un jour different. 

Les ecarts sont loin d'etre rares, ce qui permet de mettre en 
garde contre une finesse excessive et toute illusoire des 
notations. De meme qu'il serait vain de vouloir mesurer une 
longueur au dixieme de millimetre si I’on ne disposait que 
d'un instrument grossier tel un metre de tailleur, il serait 
aussi illusoire d'apprecier la valeur d'une copie avec Lap- 
proximation du demi-point sur 100. 

Que peut-on conclure a la lumiere de ces premiers resultats ? 
Qu’ils sont superposables a ceux donnes par toutes les autres 
enquetes frangaises (pour d'autres matieres) et etrangeres 
(surtout en provenance des Etats-Unis pour la medecine). 
Les premieres etudes remontent au debut de ce siecle. 

Des 1919, les facultes americaines, a la suite du rapport 
Flexner, tenterent d'ameliorer le systeme de controle utilise 


pour les examens. Blumermontra Lavantage de tests objectifs. 
En 1922, /'University de Colombia passe de Lexamen tradi- 
tionnel en trois heures a Lexamen objedif en deux heures. La 
notation est amelioree de 50 % en precision. 

En 1926, Paterson montre que les examens objectifs permet- 
taient de mesurer autre chose que de simples connaissances 
factuelles. 

En 1930, Eells rapporte /'experience suivante: 61 examina- 
teurs corrigent a onze semaines d'intervalle les memes 
epreuves. Le coefficient de "correspondence" varie entre 

0. 25. et 0,51 avec des variations aussi grandes pour un meme 
correcteur que pour des correcteurs differents. 

En 1931, Eurich rapporte ce qui suit: 106 candidats passent des 
epreuves de psychologie et de statistique, selon 4 types d'exa- 
men : ecrit traditionnel, question "a completer", QCM, 
"vrai/faux". II montre, entre autres, que la correlation par rap- 
port a /'intelligence globale du candidat est plus faible avec les 
epreuves traditionnelles qu'avec les epreuves par QCM. 

De meme en 1933, Gilliland montre que si les deux types 
d'examens permettent de mesurer la meme qualite (en cor- 
relation avec le quotient intelleduel et la valeur scolaire glo- 
bale), Lexamen objedif donne de meilleurs resultats. 

En 1935, Hartog montre que pour des copies traditionnelles 
recorrigees a plusieurs mois d'intervalle, si la courbe des 
notes est approximativement la meme, les resultats pris un 
par un sont radicalement differents. 

En 1956, Marshall montre les dangers d'examens objectifs si 
les questions sont mat preparees, soit a la hate, soit par des 
redadeurs non qualifies. 

Goldstein conclut que, quel que soit le systeme d'examen, le 
meilleur systeme de notation se resout a deux appreciations 
"admis" et "refuse" et s'eleve aussi contre tout systeme de 
concours. 

Enfin, il y a deux ans, une etude portant sur un examen de pedia- 
tric montra "qu'au mieux Lexamen ecrit traditionnel ne devait 
etre qu'une mesure grossiere des capacites de I'etudiant" ». 
Quelque temps plus tard, I'auteur de I'article d'octobre 1966 
recommandait I'utilisation de QCM pour les examens de 
medecine ; puis il quittait la France pour debuter une carriere 
de consultant a I’OMS. ■ 

1. Enrich AC. Four types of examinations. J Educ Psychology 1931;22:268-78. 

2. Guilbert JJ. Autopsie d'un examen traditionnel. Presse Med 1966. 
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